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基于 混合 互信 息 算 法 的 文本 情感 分 析 
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摘 要 : 针对 互信 息 (mutual information，MI) 特征 选择 方法 存在 的 正 负 相关 性 的 现象 以 及 未 考虑 特征 项 在 不 同类 
别 内 词 频 的 问题 ， 提 出 了 一 种 混合 互信 息 特征 选择 算法 (hybrid mutual information，HMI) 。 该 算法 引入 逆 文 档 频 率 
系数 和 美 间 词 频 信 息 系数 ， 使 得 整个 文档 中 的 词 频 信息 以 及 每 个 类 之 间 的 词 频 信息 得 以 有 效 利 用 ; 引入 正 负 相关 性 
系数 ， 区 分 正 相 关 性 和 负 相 关 性 ， 并 进行 有 效 的 利用 。 通 过 实验 对 比 表明 ， 混 合 互 信息 算法 可 以 有 效 地 提高 特征 选 
择 的 质量 ， 进 而 提高 文本 情感 分 析 的 效果 。 
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Text sentiment analysis based on hybrid mutual information algorithm 


Wang Yi, Dai Yueming 
(School of Internet of Things Engineering, Jiangnan University, Wuxi Jiangsu 214122, China) 


Abstract: Aiming at the phenomenon of positive and negative correlation in the feature selection method of mutual 
information (MD and the problem of not considering the word frequency of the feature items in different categories, a 
hybrid mutual information feature selection algorithm (HMI) is proposed. By introducing the inverse document frequency 
coefficient and the inter-class word frequency information coefficient, the algorithm can effectively utilize the word 
frequency information in the whole document and the word frequency information between each class. The positive and 
negative correlation coefficient is introduced to distinguish positive correlation and negative correlation and to make 
effective use. The experimental results show that the hybrid mutual information algorithm can effectively improve the 
quality of feature selection and then improve the effect of text emotional analysis. 


Key words: mutual information; feature selection; positive and negative correlation; word frequency information; sentiment 


classification 
站 着 等 。 在 这 些 特征 选择 算法 中 ， 互 信息 以 其 时 间 复 杂 度 低 ,易于 
一 理解 以 及 使 用 便捷 等 优点 ， 成 为 了 一 种 重要 的 特征 选择 方法 
随 着 科技 的 不 断 发 展 ， 互 联网 的 普及 越 来 越 高 ， 对 于 数 。” 中。 但 是 ， 传 统 互 信息 算法 因为 其 没 考虑 词 频 因素 ， 导 致 选 
据 分 析 的 需求 也 日 益 增 长 ， 一 些 关 于 商品 以 及 服务 的 评论 越 ” 取 的 特征 词 的 质量 较 低 四 ， 另 外 ， 在 计算 特征 项 的 互信 息 值 
来 越 多 。 因 此 ， 从 这 些 评论 以 及 评价 中 对 其 观点 进行 情感 分 时 ， 和 忽略 了 呈 负 相关 性 的 特征 项 ， 导 致 负 相 关 性 的 特征 值 会 
析 成 为 了 当下 热门 研究 方向 由。 文本 情感 分 析 是 分 析 文 本 的 明显 削弱 总 体 的 特征 值 ， 从 而 降低 了 互信 息 算法 的 精确 性 。 
情感 倾向 ， 并 在 文本 中 挖掘 作者 的 观点 、 态 度 等 有 效 信息 品 ， 综 上 所 述 ， 针 对 互信 息 算 法 在 特征 选择 时 的 不 足 ， 本 文 
此 文本 情感 分 析 也 被 称 为 文本 观点 挖掘 。 目 前 ， 基 于 情感 引入 了 道 文档 频率 系数 ,类 间 频 率 系 数 以 及 正 负 相关 性 系数 ， 


词典 以 及 基于 机 器 学 习 是 文本 情感 分 析 的 两 种 主要 方法 ， 而 提出 一 种 混合 互信 息 (hybrid mutual information，HMI) 特 
基于 机 器 学 习 的 方法 是 当前 情感 分 类 的 主流 方法 本 。 在 文本 征 选 择 方法 。 通 过 理论 分 析 以 及 实验 证 明 ， 该 算法 能 有 效 地 


情感 分 析 中 ， 文 本 数据 一 般 被 表示 为 空 间 向 量 模型 (VSMD) 利用 词 频 信 息 以 及 正 负 相关 性 信息 提高 特征 选择 的 质量 ， 从 

内， 借助 此 模型 ， 可 以 将 文本 数据 转换 成 为 结构 化 数据 ， 以 ”而 提高 情感 分 类 的 精确 度 。 

便 计算 机 能 够 对 其 进行 处 理 。 在 一 般 的 数据 集中 ， 特 征 项 通 

常会 达到 上 万 个 特征 ， 稍 大 的 数据 集 ， 甚 至 会 达到 上 百 万 个 1 ”互信 息 特征 选择 方法 

特征 ， 因 此 如 何在 降低 特征 空间 的 维度 的 同时 ， 提 高 文本 情 互信 息 (MI) 是 一 种 基于 统计 学 的 算法 ， 一 般 用 来 度量 

感 分 类 的 效果 ， 就 成 为 文本 情感 分 析 中 的 关键 问题 四 。 特 征 。 ”两 个 统计 量 之 间 的 相互 关联 程度 外 。 而 在 文本 情感 分 析 中 ， 

选择 自然 也 就 成 为 文本 情感 分 析 中 的 一 个 重要 部 分 。 互信 息 算法 般 被 用 来 计算 文本 中 的 特征 项 与 各 个 类 别 之 间 
特征 选择 的 主要 目的 就 是 为 了 通过 去 除 噪声 外， 选择 出 ”的 关联 程度 。 当 特征 项 与 该 类 别 的 关联 程度 越 大 时 ， 该 特征 


高 质量 , 具有 代表 性 的 词汇 ， 从 而 提高 分 类 的 准确 率 。 目前 ， ”项 与 该 类 的 互信 息 值 就 越 大 ， 则 说 明 该 特征 项 对 于 该 类 就 越 


常见 的 特征 选择 方法 包括 : 卡 方 统计 量 (Chi-square statistic， 有 代表 性 名。 记 为 特征 项 的 集合 ，K=1,2,.….,m; cj 为 训练 
CHI)、 文 档 频 数 (document frequency，DF)、 信 息 增益 集 类 别 的 集合 ， 有 =1,2,...,r; 则 妈 与 cj 之 间 的 互信 息 值 的 计算 
(information gain，IG)、 互 信息 (mutual information，MI) 公式 如 下 : 
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(1) 


中 :p(tscj) 表 示 训 练 集中 既 包 含 特征 大 又 属于 类 别 的 文本 cj 


概率 , p(ty 表 示 在 整个 文本 训练 集中 包含 特征 的 文本 概率 ， 


p(cj) 表 示 文 本 属于 训练 集中 类 别 cj 的 文本 概率 ,p(t|cj) 表 示 类 


别 cc 中， 包含 特 征 妇 的 文本 概率 。 对 于 多 个 类 另 


1 的 训练 集 


特征 项 与 训练 集中 各 个 类 别 的 互信 息 计算 公式 如 下 所 示 : 


Pc) 
pl(hi) pc)) 


MI(t,)= 2 plc))log 


- pl |c)) 
(ci)log 一 -一 一 
SG § pl) 


当 特 征 选择 时 , MI(tr) 的 互信 息 值 按照 从 大 到 小 排序 , 根 


2) 


力 就 越 强 。 在 传统 的 互信 息 方 法 中 ， 还 忽略 了 出 现 特征 项 的 
文档 频率 ， 例 如 “他 ”“ 你 ”“ 是 ”这 样 的 词 在 很 多 文本 中 都 有 
可 wo 能 会 出 现 ， 然 而 这 类 词 对 于 文本 的 区 别 能 力 并 不 高 031。 
忆 此 ， 如 果 一 个 特征 项 出 现在 大 多 数 的 文本 中 ， 那 么 意味 着 
这 个 特征 项 对 于 文本 类 别 的 区 分 能 力 就 越 弱 .基于 以 上 所 述 ， 
为 了 对 此 类 特征 项 进行 区 分 ， 增 加 特征 项 的 区 分 力 ， 引 入 道 
文档 系数 6， 来 调节 这 类 问题 。B 的 定义 形式 如 下 所 示 : 
N 

Fn ool (5) 

那么 ， 可 以 将 式 4) 写成 
PG |c)) 


MI(t,)= y ( 1 
ex 2 Bp og pe) (6) 


据 维 度 的 选取 需求 ， 选 取 其 中 较 大 的 前 项 值 


项 进行 文本 的 向 量 的 表示 。 


互信 息 算 法 计算 的 是 包含 特征 项 妇 的 文本 数量 与 训练 集 
中 每 个 类 别 c 中 文本 数量 的 之 比 ， 最 重要 的 特征 就 是 考虑 了 
不 同 特征 项 和 这 一 类 别 的 同 现 频率 ， 有 效 地 利用 了 


所 对 应 的 特征 


文本 的 类 


别 信息 590。 但 是 互信 息 方 法 也 存在 着 一 些 明 显 的 不 足 之 处 ， 

例如 在 式 (2) 中, 各 个 特征 项 在 不 同类 别 之 间 的 频数 的 差异 
并 没有 体现 出 来 ， 也 没有 考虑 包含 特征 项 文本 训练 集 频数 之 
间 的 联系 。 在 文本 情感 分 析 中 ， 特 征 项 与 各 个 类 别 之 间 的 相 


关 性 分 为 正 相关 性 和 负 相 关 性 ， 正 相关 的 特征 


项 在 文本 情感 


分 类 中 起 主要 的 作用 00， 但 负 相关 特征 对 于 最 终 


的 文本 情感 


分 类 结果 也 有 着 重要 的 作用 。 从 式 (2) 中 可 以 看 出 ， 正 负 相 


关 性 的 互信 息 值 相互 抵消 了 ， 从 而 忽略 了 负 相 关 人 性 


2 混合 互信 息 特 征 选 择 方 法 
2.1 类 间 词 频 信息 系数 


的 作用 。 


通过 以 上 分 析 ， 在 传统 的 互信 息 特征 选择 方法 中 ， 只 考 


分 析 中 的 
常 重要 的 


mi mi 


] 。 如 果 一 个 特征 项 对 于 某 一 类 的 


虑 了 类 内 特征 项 的 频率 023， 但 是 特征 项 的 词 频数 在 文本 情感 
上 


尺 表 能 力 越 强 ， 


不 仅仅 体现 在 类 内 ， 它 也 在 类 和 类 之 间 起 着 非 


那么 该 特征 项 应 当 集 中 在 某 一 类 中 ， 也 就 是 在 这 一 类 中 该 特 


征 项 的 词 频 应 当 较 大 ， 相 反 在 其 他 类 中 应 当 尽量 少 的 出 现 。 
假定 特征 项 & 为 类 别 c 的 特征 项 ， 那 么 在 特 生 


E 项 tk 在 类 别 cj 


的 定义 形式 所 示 为 


bye]| 


RQ 
ll 


/| 


别 的 总 数 。 那 么 ， 式 (2) 则 可 以 写成 
Pi |c)) 
p(t) 


MI(h.)=Qx ple)log 
i=l 


式 〈4) 中， 在 互信 息 方法 中 引入 类 间 词 频 信息 系数 a， 


中 应 尽 可 能 多 的 出 现 ， 而 在 其 他 类 别 cy(% 过 有 中 应 尽 可 能 的 
少 出 现 。 那 么 在 理论 推导 中 ， 对 于 类 别 代 表 能 力 较 强 的 特征 
项 , 在 不 同类 别 之 间 的 标准 差 应 当 尽 可 能 大 。 基 于 以 上 考虑 ， 
本 文 在 式 〈2) 的 基础 之 上 ， 引 入 类 间 词 频 信息 系数 a， 则 a 


(3) 


其 中 :(tyJ 表 示 为 特征 女 在 类 别 j 中 出 现 的 频数 ，m 表示 为 类 


(4) 


其 中 ，N 代表 训练 集中 的 文档 总 数 ，ftw) 代 表 包 含 特征 项 大 
的 文本 数量 ， 分 母后 加 上 小 数 0.01 确保 分 母 不 为 0， 以 保证 
系数 的 有 效 性 。 在 式 〈5) 中 ， 由 于 N>fttwy) 恒 成 立 ， 当 存在 更 
多 包含 特征 项 妇 的 文本 时 , 也 就 是 fty 越 大 时 ,ftw) 越 接近 N， 
系数 5 越 接近 0， 那 么 ， 道 文档 系数 8 值 对 于 该 特征 项 的 MI 
值 的 影响 就 越 小。 通过 引入 逆 文 档 频 率 系数 ， 降 低 了 一 些 常 
用 词 作 为 特征 项 对 于 最 后 分 类 结果 的 影响 ， 提 高 了 特征 选择 
的 效率 。 


2.3 正 负 相关 性 系数 

式 (1) 可 以 看 出 ， 在 计算 特征 项 大 和 类 别 cj 的 互信 
息 值 时 ， 当 p(t|cj) 大 于 p(t， 此 时 MI(t)>0， 这 表明 特征 项 
友和 类 别 cj 是正 相关 的 。 说 明 当 p(x|cj) 的 值 越 大 ， 而 p(t) 的 
值 越 小 时 ， 特 征 项 大 所 能 代表 类 别 c 的 能 力 就 越 强 。 而 当 
p(t 小 于 p(t)， 此 时 MI(t)<0， 这 表明 特征 项 丸和 类 别 cj 
之 间 是 负 相关 的 。 说 明 当 p(tt|cj) 的 值 越 小 ， 而 p(t 的 值 越 大 
时 ， 特 征 项 妈 与 类 别 之 间 的 信息 量 就 越 少 ， 特 征 项 大 代表 
类 别 cj 的 能 力 就 越 低 。 从 式 〈2) 中 可 以 看 出 ， 当 计算 类 别 
集合 的 MI 值 时 ， 特 征 项 与 类 别 为 负 相 关 性 的 部 分 值 会 削弱 
该 特征 项 最 终 的 MI 值 。 在 文本 情感 分 类 中 ， 正 相关 性 特征 
有 利于 提高 最 终 的 准确 率 ， 而 负 相关 性 特征 有 利于 提高 最 终 
的 查 全 率 09， 因 此 负 相关 性 特征 的 作用 也 不 能 忽视 05。 针 对 
这 一 现象 ， 本 文 引 入 正 负 相关 性 系数 y 来 调节 互信 息 方 法 中 
出 现 的 正 负 相关 性 问题 。 


那么 ， 在 类 别 c (j=1,2,…,r) 中 ， 首 先 定义 : 
7 = 六] (7) 


其 中 : f() 表示 每 个 类 别 中 含有 的 特征 项 站 的 平均 文本 数 ， 


记 旨 代表 类 别 5 中 包含 特征 项 不 的 文本 数量 。 
当 忆 (证 co 大 于 的 时 ，Y 的 定义 形式 如 下 所 示 : 
_ ox OF) 


Fe (8) 
当 p(tlcj) 大 于 p(t) 时 ，Y 的 定义 形式 如 下 所 示 : 
y dowx EA (9) 


fh) 


中 : @ 为 调节 因子 ，o@ 的 理论 取 值 范围 为 0.1~0.9， 用 来 调 


系数 a 统计 了 特征 项 在 每 一 类 间 的 词 频 的 标准 


》 


使 得 特征 


项 的 词 频 信息 在 不 同类 别 中 得 以 体现 ， 提 高 J 


互信 息 特征 选 


择 方 法 的 效率 。 因 此 ， 该 式 进 一 步 提 高 了 文本 情感 分 类 的 效 


果 。 
2.2 ” 逆 文 档 频率 系数 
上 文通 过 引入 类 间 词 频 信息 系数 a， 了 角 


和 到 | 当 


一 个 特征 


项 集中 出 现在 某 一 类 的 文本 中 时 ， 则 它 对 文本 类 别 的 代表 能 


正 负 相关 特征 项 的 影响 力 ， 使 得 特征 项 无 论 是 正 相关 还 是 
〖 相关 ， 都 充分 发 挥 其 对 于 最 终 情 感 分 类 的 作用 。 另 外 ， 在 
Y 中 ， 当 特征 项 与 类 别 呈 现 负 相关 时 ，P( 友 co) 的 值 越 大 ， 而 
P( 友 的 值 越 小 时 ， 说 明 特 征 项 在 该 类 中 出 现 的 次 数 较 少 ， 因 


此 ， 系 数 Y 中 的 (六 60)-7oo 很 好 地 应 对 了 这 一 情况 ， 进 而 


济 超 全 


录用 定稿 
效 利 


也 相应 表示 了 特征 项 文本 集合 
性 选择 效率 有 了 一 定 的 提高 。 


特 


平头 ， 


了 与 类 别 项 呈 负 相关 性 的 特征 项 。(f,(4)- 了 4))1 了 G4) 


的 偏离 


nti 


综 上 所 述 ， 混 合 互 信息 (HMI) 的 定义 形式 如 下 所 示 : 


HMI(W)=ax 2 Bxyxp(c)log 
i=1 


HMI 算法 的 伪 代 码 如 下 : 


. for each document dj eD do 


for each word tr edj do 
IF worde Ci then 
tct+ WU 所 求 特征 项 在 类 另 
end 让 


8. for each category Ci eC do 


9. 


10. 
11. 
12. 
13. 
14. 
15. 
16. 
17. 
18. 
19. 
20. 
21. 
22. 
23. 
24. 
25; 
26. 
27. 
28. 


Cer+ /数据 集 类 别 总 数 
end for 
for each document djeD do 


if word in Ci then 


end if 
end for 
for each document dj seCj do 


end for 
for each document djeD do 
if worded; then 
count++ // 含 所 求 特征 项 的 
end 让 


end for 


for each document djeD do 
N++ ”// 文 本 总 数 

end for 

Qa.=sqrt (Square (te-(sum (tp)/Ca)/Cn) 


B=log [N/ (count+0.01)] 


dx++ // 类 别 Gj 中 包含 所 求 特 和 


Di++ /类 别 Cj 中 文本 的 数量 


p(t |c)) 
pl) 


(10) 


| Cj 中 出 现 的 频数 


文本 数量 


E 项 的 文本 数量 


并 


29. 1f (dx /D);) >= (count/N) then 
30. y=@*[(dx -count/Ca)/ (count/Cn)] 
31. else 
32. y= (1- o)*[(dk-countCD/ (count/Cn)] 
33. end 1f 
34. HMI (tk ,Ci) =MI*o*p*y 
3 ”实验 结果 及 分 析 
3.1 实验 语 料 集 
本 文 实验 分 别 采 用 来 自 于 谭 松 波 的 酒店 管理 评论 语 料 集 
以 及 美的 空调 评论 语 料 集 来 进行 实验 ， 两 者 语 料 集 分 别 有 4 
000 条 评论 数据 ， 分 为 正 向 评论 和 负 向 评论 两 类 ， 其 中 正 向 
(pos) 评论 2000 条， 负 向 (neg) 评论 2000 条 。 为 验证 算 
法 的 有 效 性 ， 文 本 采用 交叉 实验 的 方式 ， 将 语料库 的 数据 取 


™ 


中 


条 80% 作 为 训练 集 ， 


用 语 料 集中 训练 集 的 相应 实例 ， 表 2 


中 测试 集 的 相应 实例 。 


用 于 训练 ， 其 余 20% 作 为 测试 集 ， 
用 于 检验 分 类 器 的 效果 ， 进 行 实验 分 析 。 表 1 展示 了 本 文 所 
展示 了 本 文 所 用 语 料 集 
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表 1 训练 集 语 料 实例 
Table 1 training set corpus examples 
训练 集 语 料 实例 : 
S1: 设备 很 简单 服务 意识 很 差 餐 厅 的 设施 就 跟 街 边 的 小 滩 一 样 ， 卫 生 条 
件 很 不 好 。 

S2: 房间 很 小 ， 装 修 太 差 ， 电 线 全 部 裸露 在 外 面 ， 脏 ， 不 是 一 般 的 脏 。 
S3: 位 置 不 错 ， 在 市 中 心 ， 周 围 吃饭 等 很 方便 ， 房 间 一 如 既往 的 干净 。 
表 2 测试 集 语 料 实例 
Table 2 Test set corpus examples 
测试 集 语 料 实例 : 

S4: 地 点 和 位 置 很 好 ， 晚 上 比较 安静 ， 设 施 较 全 。 对 于 一 般 的 自助 游 来 

说 比较 合适 。 
S5: 酒店 还 可 以 ， 早 餐 也 不 错 ， 值 得 推荐 ， 若 价格 能 再 低 点 就 更 好 了 。 
S6: 房间 装修 陈旧 ， 下 水 管 堵塞 ， 晚上 折腾 了 2 个 多 小 时 ， 还 是 没有 修 
好 。 
S7: 预定 的 房间 给 的 是 问题 房 ， 水 泵 声音 太 吵 ， 地 段 离 风 景点 偏 了 点 ， 
虫子 很 多 。 
3.2 实验 评价 标准 
在 文本 情感 分 析 中 ， 比 较 常用 的 评价 标准 有 查 准 率 

(precision )， 也 叫做 准确 紊 ， 和 查 全 率 (recall)， 也 叫做 召 
可 率 ， 以 及 综合 了 准确 率 和 查 全 率 的 评价 标准 Fi 值 。 本 文采 


用 以 上 三 种 评 


价 标准 来 对 实验 结果 进行 评价 。 文 本 情感 分 类 


的 判断 情况 主要 分 为 以 下 四 种 情况 ， 如 表 3 所 示 。 
表 3 文本 情感 分 类 判断 
Table 3 Judgment of text emotion classification 
正 向 样 例 负 向 样 例 
预测 结果 为 正 向 样 例 TP FP 
预测 结果 为 负 向 样 例 FN TN 
表 4 列 出 了 表 2 中 测试 集 语 料 实例 的 实际 结果 和 预测 结 
果实 验 对 比 。 
表 4 测试 集 语 料 实例 实验 对 比 
Table 4 Test set sample data 
测试 集 语 料 实例 实际 结果 预测 结果 
S4 -三 止 凤 
S5 :让 负 语 
S6 负 启 
S7 负 据 负 碳 
其 中 ,TP 指 的 是 预测 为 正 向 样 例 , 实际 也 为 正 向 样 例 的 文本 
数 ， 如 表 4 中 语 料 实例 S4 所 示 ; FP 指 的 是 预测 为 正 向 样 例 ， 


实际 为 负 向 样 例 的 文本 数 ， 如 表 4 中 语 料 实例 S6 所 示 ; 


FN 


指 的 是 预测 为 负 向 样 例 ， 实 际 为 正 向 样 例 的 文本 数 ， 如 表 4 
中 语 料 实例 SS 所 示 ; TN 指 的 是 预测 为 负 向 样 例 ， 实 际 也 为 
负 向 样 例 的 文本 数 ， 如 表 4 中 语 料 实例 S7 所 示 。 
那么 ， 关 于 准确 率 和 召回 率 的 定义 形式 为 
TP 
Preciions opp (11) 
TP 
Recall= pL ny (12) 
五 值 则 将 准确 率 和 召回 率 综合 起 来 进行 评价 ， 其 定义 形 
式 如 下 : 
Fl= 2x Precision x Recall (13) 


Precision + Recall 


3.3 实验 步骤 


a) 对 数据 集 进 行 预 处 理 ， 对 语 料 集 进 行 标注 ， 将 正 向 语 


料 和 负 向 语 料 


合并 为 一 个 文档 ， 进 行 分 词 处 理 


E， 本 文采 月 


的 
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是 较为 常用 的 jieba 中 文 分 词 工具 。 针 对 表 1 训练 集 语 料 实例 表 7 不 同 维度 下 准确 率 对 比 结果 
分 词 后 结果 如 表 5 所 示 。 Table 7 comparison of accuracy in different dimensions 
表 5 Jieba 分 词 处 理 后 结 特征 维 数 MI HMI CHI 
Table 5 Results after Jieba participle processing 2000 0.58 0.83 0.66 
分 词 处 理 后 结 3000 0.61 0.83 0.71 
S1: 设备 很 简单 服务 意识 很 差 餐厅 的 设施 就 跟 街 边 的 小 4000 0.65 0.84 0.72 
滩 一 样 ， 卫生 条 件 很 不 好 。 5000 0.70 0.83 0.74 
S2: 房间 很 小 ， 装 修 太 差 ， 电 线 全 部 裸露 在 外 面 ， 脏 ， 不 6000 0.74 0.84 0.73 
是 一 般 的 脏 。 7000 0.79 0.85 0.74 
S3: 位 置 不 错 ， 在 市 中 心 ， 周围 吃饭 等 很 方便 ， 房间 一 如 8000 0.81 0.86 0.75 
既往 的 干净 。 9000 0.81 0.86 0.75 
b) 对 文本 中 的 停 用 词 ,标点 符号 等 对 文本 情感 分 类 无 关 表 8 不 同 维度 下 召回 率 对 比 结果 
的 因素 进去 去 除 。 针 对 表 1 训练 集 语 料 实例 分 词 后 结果 如 下 Table 8 comparison of recall rates in different dimensions 


表 6 所 示 。 


表 6 去 停 用 词 


后 结果 


Table 6 results after discontinuation of words 


去 售 


词 后 结果 : 


S1: 设备 很 简单 服务 意识 很 差 餐厅 设施 街 边 小 滩 卫生 条 件 


很 不 好 


了 


S2: 房间 很 小 装修 太 差 电线 全 部 


S3: 位 置 不 错 市 中 心 周围 


吃饭 很 方便 


裸露 外 面 脏 不 是 一 般 脏 
房间 一 如 既往 干净 


c) 分 别 采用 互信 息 (MI)、 混 合 互信 息 (HMI)、 卡 方 


统计 量 (CHI) 三 种 特征 选择 方法 进行 特征 选择 。 

d) 采用 词 袋 模型 (BOW ) 对 特征 项 进行 表示 ， 并 使 用 
空间 向 量 模 型 (VSM) 将 文本 数据 转换 为 结构 化 数据 。 

e) 由 于 支持 向 量 机 (support vector machine ,SVM) 分 


类 器 具有 结构 较为 简单 ， 全 


机 分 类 器 对 数据 进行 j 
实验 结果 进行 分 析 对 比 。 


局 最 优等 优点 ， 己 逐渐 成 为 文本 
情感 分 析 中 的 主流 分 类 器 。 因 此 ， 本 文 实验 采用 了 支持 向 量 
1 练 以 及 测试 ， 并 对 三 种 特征 选择 方法 


ul 


具体 的 实验 流程 如 图 1 所 示 。 
te > VSM 内 量化 | 一 分 类 训 陈 
/ | I 
/ 数 所 集 /一 文本 预 处理 | 4 | 
/ \ 
| 
彤 出 VSM 向 量化 | 一 | 测 试 集 分 类 
> i 
| 
评估 性 能 
图 1 实验 流程 图 
Fig.1 Flow chart of experiment 
3.4 结果 及 分 析 
本 文 实 验 中 分 别 采用 卡 方 统 计量 (CHI)、 互 信息 (MI) 


方法 对 数据 自 


(precision )、 召 


以 及 本 文 提出 的 混合 互信 息 
进行 特征 选择 


口 


言 息 


关 特 征 项 起 主要 作用 , 对 式 8) 


0.6、0.7、0.8 以 及 0.9， 通 过 多 次 对 比 实验 ， 最 终 发 
0.8 时 ， 实 验 效果 最 佳 。 表 7~9 分 别 为 酒店 管 


维度 下 准确 率 、 召 


加 


率 以 及 已 值 


CHMI) 这 三 种 不 同 的 特征 选择 
进行 对 比 实 验 。 实 验 中 ， 特 征 
项 表示 方法 采用 BOW 词 袋 模型 ， 分 别 计算 在 2000、3000、 
4000、5000、6000、7000、8000 和 9000 维度 下 的 准确 率 
率 (recall) 以 及 Fi 值 。 另外， 


于 正 相 
的 调节 因子 @ 分 别 取 0.5、 
现 o@ 取 
里 评论 在 不 同 
的 数据 对 比 表 格 。 


特征 维 数 MI HMI CHI 
2000 0.59 0.90 0.78 
3000 0.63 0.90 0.80 
4000 0.68 0.89 0.77 
5000 0.71 0.90 0.79 
6000 0.77 0.88 0.79 
7000 0.80 0.88 0.80 
8000 0.81 0.89 0.80 
9000 0.81 0.90 0.81 
表 9 不 同 维度 下 Fl 值 对 比 结 
Table 9 comparison of Fl values in different dimensions 
特征 维 数 MI HMI CHI 
2000 0.59 0.87 0.72 
3000 0.63 0.87 0.75 
4000 0.67 0.86 0.74 
5000 0.70 0.86 0.76 
6000 0.76 0.87 0.76 
7000 0.80 0.86 0.77 
8000 0.81 0.87 0.77 
9000 0.81 0.87 0.78 
由 表 7~9 可 以 看 出 ， 混 合 互信 息 CHMI) 算法 在 酒店 管 
理 评 论 数据 集中 , 无 论 是 在 准确 率 、 召回 率 , 还 是 在 Fi 值 上 ， 
这 三 个 指标 均 明显 优 于 另外 两 种 特征 选择 方法 。 其 中 ， 由 表 
7 可 以 看 出 , 准确 率 较 MI 算法 提高 了 5%， 较 CHI 算法 提高 
了 11%; 由 表 8 可 以 看 出 ， 召 回 率 较 MI 算法 提高 了 9%， 较 
CHI 算法 提高 了 9%; 由 表 9 可 以 看 出 , Fi 值 较 MI 算法 提高 
了 6%， 较 CHI 算法 提高 了 9%。 可 以 看 出 ，HMI 特征 选择 
算法 对 于 文本 情感 分 类 效果 具有 显著 的 提高 。 


表 10~12 分 别 为 美的 空调 评论 在 不 同 纪 


I 


率 以 及 Fl 值 的 数据 对 比 表 格 。 


度 下 准确 率 、 召 


表 10 不 同 维度 下 准确 率 对 比 结 呈 


人 


Table 10 comparison of accuracy in different dimensions 


特征 维 数 MI HMI CHI 
2000 0.55 0.69 0.56 
3000 0.58 0.73 0.56 
4000 0.64 0.75 0.61 
5000 0.69 0.80 0.62 
6000 0.71 0.83 0.64 
7000 0.73 0.83 0.67 
8000 0.71 0.84 0.71 
9000 0.71 0.83 0.72 
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表 11 不 同 维度 下 召回 率 对 比 结果 
Table 11 comparison of recall rates in different dimensions 
特征 维 数 MI HMI CHI pg | 
2000 0.67 0.82 0.78 本 ee 
3000 0.69 0.85 0.80 Ty 人 四 人 
4000 0.77 0.89 0.81 _ r- ge 0 
5000 0.79 0.90 0.83 吕 
6000 0.78 0.91 0.83 0.7]] 人 
7000 0.78 0.91 0.85 De 
8000 0.76 0.90 0.85 0.6 二 二 
全 - MI 
9000 0.78 0.90 0.84 -村 -CHI 
表 12 不 同 维度 下 准确 率 对 比 结果 | | | 2 
Table 12 comparison of accuracy in different dimensions 2000 3000 4000 ee 7000 8000 9000 
特征 维 数 MI HMI CHI 
2000 0.60 0.79 0.69 图 3 不 同 特征 选择 维度 下 召回 率 折线 图 
3000 0.68 0.79 0.69 Fig.3 Broken line diagram of recall rate under different feature 
4000 0.73 0.80 0.70 selection dimensions 
5000 0.74 0.83 0.69 
6000 0.74 0.80 0.70 
7000 0.74 0.82 0.73 pr 
8000 0.73 0.82 0.72 一 ------ 本 二村 2 > 0-------- nse 1 
9000 0.75 0.83 0.74 
0.8 1 -一 - 售 ------- | 
表 10~12 可 以 看 出 ， 混 合 互 信息 CHMI) 算法 在 美的 有 站- | 
空调 评论 中 ,无 论 是 在 准确 率 、 召 回 率 ， 还 是 在 Fi 值 上 ,这 na TY 本 
三 个 指标 均 也 同样 明显 优 于 另外 两 种 特征 选择 方法 。 其 中 ， | Be 2 
由 表 10 可 以 看 出 ， 准 确 率 较 MI 算法 提高 了 12%， 较 CHI pl 
算法 提高 了 119%; 由 表 11 可 以 看 出 : 召回 率 较 MI 算法 提高 ee oe 
了 12%, 较 CHI 算法 提高 了 6%; 由 表 12 可 以 看 出 ,Fi 值 较 - 卑 - CHI 
MI 算法 提高 了 8%, 较 CHI 算法 提高 了 9%。 综 上 可 以 看 出 ， 051 ， CY 
HMI 特征 选择 算法 对 于 两 种 数据 集 的 文本 情感 分 类 效果 均 2000 3000 4000 0 S00 7000 8000 9000 
有 显著 的 提高 。 
为 了 对 不 同 特征 维度 下 文本 情感 分 类 的 准确 率 、 召 回 率 图 4 不 同 特征 选择 维度 下 Fl 值 折线 图 


以 及 下 值 的 变化 情况 有 一 个 更 加 直观 的 认 知 , 如 图 2~4 所 示 ， Fig.4 Fl-value line diagram under different feature selection 
采用 折线 图 来 展现 在 酒店 管理 评论 数据 集中 ， 不 同 维度 下 三 dimensions 
个 值 的 变化 情况 。 如 图 5~7 所 示 ， 采 用 折线 图 来 展现 在 美的 空调 评论 数据 
集中 不 同 维度 下 三 个 值 的 变化 情况 。 
从 图 5~7 可 以 看 出 ， 三 种 算法 的 准确 率 以 及 召回 率 都 呈 
oo 现 上 升 的 趋势 , 但 明显 HMI 算法 的 整体 效果 要 优 于 另外 两 种 
ee , 算法 。 另 外 ，HMI 算法 的 1 值 在 维度 上 具有 较 好 的 稳定 性 。 
0.81 -一 司 
3 | 和 a eer Wo -| ] 
多 07 2 轩 _ 
| _ i ee ---- ~-- | 
0 0.81 We 
0.6 二 -一 -mm 8 | - pe 
-和 村- CHI 总 re 人 
二 & o7j -一 7 * es 
0.5 二 T T T T T T .2 -~ 
2000 3000 4000 5000 6000 7000 8000 9000 $” -一 
number 了 是 vy-- 
0.6 1 es 
> 和 -二 -全 - MI 
图 2 不 同 特征 选择 维度 下 准确 率 折线 图 Pe -cH 
Fig.2 Broken line diagram of accuracy under different feature 1 ， ， ， ， a bes 
eleeion dlensions 2000 3000 4000 5000 6000 7000 8000 9000 
number 
从 图 2~4 可 以 看 出 ，MI 和 CHI 算法 效果 在 维度 在 7000 
时 开始 趋 于 稳定 ， 而 HMI 算法 自始至终 都 保持 在 一 定 的 范 图 5 不 同 特征 选择 维度 下 准确 率 折线 图 
， 且 HMI 算法 整体 的 分 类 效果 均 优 于 另外 两 个 算法 。 Fig. 5 Broken line diagram of accuracy under different feature 
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图 6 不 同 特征 选择 维度 下 召回 率 折线 图 


Fig.6 Broken line diagram of recall rate under different feature 


selection dimensions 


0.9 1 
= e@-------- -= 1 
Ns -= 0- ~ 
四 合 ------ 全 -一 | 
国 全 一 
7 了 下 -sa 5 号 -------- 村- 
06¥ 
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-于 -CHI 
-*- HMI 
0.5 二 T T T T T T 
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number 


图 7 不 同 特征 选择 维度 下 Fl 值 折线 图 


Fig.7 Fl-value line diagram under different feature selection 


dimensions 


综 上 所 述 ， 混 合 互信 息 算法 在 准确 率 、 召 回 率 以 及 局 


值 都 明显 高 于 MI 和 CHI 方法 ， 并 且 在 特征 维度 的 选择 上 有 具 
有 较 强 的 稳定 性 。 因 此 可 以 得 出 ， 混 合 互 信息 CHMI) 特征 


选择 算法 可 以 有 效 地 提高 特征 选择 的 质量 ， 进 而 提高 文本 情 


感 分 类 的 效果 。 
4 ”结束 语 
本 文 在 分 析 互 信息 的 特征 选择 方法 存在 的 正 负 相关 性 现 


象 以 及 忽略 词 频 信息 的 问题 基础 之 上 ， 提 出 了 一 种 混合 互信 
息 特 征 选择 算法 (HMI)。 该 算法 通过 引入 道 文档 频率 ， 类 间 
词 频 以 及 正 负 相关 性 指标 ， 有 效 地 使 得 词 频 信息 在 MI 方法 
中 得 以 有 效 地 利用 ， 并 且 很 好 地 利用 了 正 负 相关 性 在 该 算法 
中 不 可 忽视 的 作用 。 通 过 实验 结果 可 以 得 出 ， 混 合 互 信息 
CHMI) 方法 明显 优 于 其 他 特征 选择 方法 ， 并 在 文本 情感 分 
类 中 取得 了 不 错 的 效果 。 
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